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© £22£If^«Pf «Jf?^!TF^ ENT ET DE RECHERCHE D f IN FORMATIONS DANS DES DOCUMENTS 
ENREGISTRES DANS UN SYSTEME INFORM ATIQUE. 



(57) Proc6d§ de traitement et de recherche d'informations 
dans dies documents enregistr6s dans un systeme informa- 
tique, consistant & indexer les documents pour organiser les 
termes qui les compose nt en classes de synonymie asso- 
ci6es & des concepts, & 6tablir deux ensembles de regies 
simples de s6mantique et d'association conceptuelle res- 
pectivement, et d les appliquer successiverhent aux docu- 
ments indexes en sp^cifiant, pour chaque application, une 
valeur minimale souhaitee de similarite entre une requete 
de recherche et les documents indexes. 

Uinvention r6duit les couts et les temps de calcul des re- 
cherches et am^liore leur exhaustive et leur precision. 
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PROCEDE DE TRAITEMENT ET DE RECHERCHE D 1 INFORMATIONS DANS 
DES DOCUMENTS ENREGISTRES DANS UN SYSTEME INFORMATIQUE • 

L 1 invention concerne un proc^de de traitement 
et de recherche d * informations dans des documents enre- 
5 gist res dans un systeme inf ormatique , ce proced6 consis- 
tant a rediger une requete de recherche et a I'appliquer 
aux documents precites au moyen de regies pre-etablies 
pour obtenir les informations recherch6es. 

Des methodes inf ormatiques de deux types dif- 

10 ferents sont actuellement utilis^es pour le traitement et 
l'extraction de 1 1 inf ormation documentaire, les unes 
etant du type num€rique et utilisant des moyens statisti- 
ques d* analyse, les autres 4tant du type syrnbolique et 
basees sur des moyens de mod^lisation des connaissances 

15 empruntes aux techniques de 1* intelligence artif icielle . 

Ces deux types de methodes sont compl^men- 
taires, car les approches stat ist iiques permettent de eou- 
vrir un large domaine a moindre coftt avec des capacites 
de synthese interessantes, et les approches symbol iques 

20 permettent des traitements plus fins sur des ddmaines de 
connaissance plus etroits. 

L ' invention a pour but d'harmoniser et d^nte- 
grer ces deux types de methodes dans un nouveau proced6 
de traitement et de recherche d* informations permettant 

25 d^am^liorer la productivity et les performances et de 
reduire les coQts au niveau de la modelisation des 
domaines de connaissance, de 1 ' indexation automat ique des 
documents et de l'extraction automatique des informations 
recherchees. 

30 Elle propose, cfc cet effet, un proc6d6 de trai- 

tement et de recherche d 1 inf ormat ions dans des documents 
enregistres dans un systeme inf ormatique, ce proc^de con- 
sistant & rediger une requ§te de recherche et a appliquer 
cette requete aux documents precites au moyen de regies 

35 pre-etablies pour obtenir les informations recherchees, 
caracterisS en ce qu'il consiste : 
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- & traiter chaque document par des moyens 
automatiques d' indexation conceptuelle permettant d f orga- 
niser les termes du document en classes de synonymie qui 
sont associees £ des concepts et reliees entre-elles par 

5 des relations lexicales et s^mantiques, 

- a etablir des ensembles; de regies consti- 
tuant au moins deux filtres d • informations , le premier- 
compose de regies simples de semantique et le deuxieme 
compose de regies d 1 association conceptuelle, 

10 - a definir une fonction de similarity entre 

un document et une requete, ! 

- et, pour execution d'une requete donnye, 

- a appliquer le premier filtre aux documents 
indexes en respectant une valeur minimale d€terminee de 

15 similarity entre les documents et la requite pour obtenir 
un premier ensemble de documents, 

- puis a appliquer le deuxieme filtre k cet 
ensemble de documents en respectant une valeur minimale 
predeterminee de similarity entre les documents de cet 

20 ensemble et la requete, pour obtenir les informations 
recherch£es . 

Le couplage des traitements symboliques et 

numeriques realise selon 1' invention off re une grande 

flexibility au niveau de 1" indexation et de 1' extract ion 
25 de 1 * information, grSce a 1 1 introduction et a la gestion 

d'une notion de probability, li<§e par exemple aux 

connaissances incompletes ou "bruitees" . - 

Ce couplage permet egalement d'amyiiorer 

1 ' exhaust ivite et la precision de la recherche, le 
30 filtrage a deux niveaux permettant une simplification de 

la tSche et une ryduction des codts et des temps de 

calcul . 

Selon une autre caracteristique de 1* inven- 
tion, les valeurs minimales precitees de similarity sont 
35 spycifiees par 1 ' utilisateur pour le premier et le 
deuxieme filtre, ou bien sont des valeurs prydyterminyes 
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appliquges automat iquement par le systeme si I'utili- 
sateur ne specif ie pas de valeurs particulieres . 

Cette caracteristique de l 1 invention permet un 
parametrage du filtrage par 1 'utilisateur qui peut ainsi 
adapter 1 ' exhaustivite et la precision de la recherche a 
ses besoins particuliers . 

Selon encore une autre caracteristique de 
1" invention, ce proced§ consiste £galement a selectiormer 
automat iquement celles des regies du deuxieme filtre qui 
sont ndcessaires 2l 1' execution d'une requete donnee, et Sl 
n'appliquer que les regies selectionn£es . ! 

On realise ainsi une adaptation du filtrage a 
la requete et on reduit les coCts et les temps de calcul . 

Selon encore une autre caracteristique de 
l 1 invention, on determine la similarity entre un document 
et la requete a partir du rapport de la quantity 
d -information contenue conjoint ement dans le document et 
la requete et de la quantity d' inf ormation contenue dans 
la requete* 

On peut aussi specifier une similarity 
minimale entre deux documents et I'utiliser pour obtenir 
des classes de documents respectant cette similarity 
minimale/ 

De fagon g£nyrale, 1' invention permet d'ame- 
liorer les performances et de reduire les coQts du trai- 
tement de 1 ' inf ormation documentaire , et d r adapter les 
performances aux besoins ou aux souhaits des utilisa-^ 
teurs . 

Elle offre egalement une plus grande discre- 
tion du traitement, le premier filtre etant par exemple 
applicable £ un grand volume d' inf ormat ions pour l'obten- 
tion d'un ensemble de documents dont la nature n'est pas 
susceptible de fournir des renseignements k des tiers, le 
deuxieme filtre etant applicable de fagon plus confiden- 
tielle & cet ensemble de documents dejcL extraits du sys- 
teme oil ils ytaient enregistr^s. 
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L ' invention sera mieux comprise et d'autres 
caracteristiques, details et avantages de celle-ci appa- 
raitront plus clairement a la lecture de la description 
qui suit, faite a titre d' exemple, d'un mode de r<§alisa- 
5 tion particulier de l 1 invention. 

La premiere phase du.proc£d£ selon 1' invention 
comprend une indexation conceptuelle automatique- des 
documents enregistres, cette indexation consistant £ 
remplacer chaque terme d'un document par un concept 
10 tenant compte de liens semantiques de synonymie, 
d'hyponymie (specialisation) ou ' d 1 hyper onymie 

(generalisation) . 

On peut utiliser a cet effet un systeme connu 
de references lexicales, par exemple du type WORDNET pour 
la langue americaine (une base lexicale developp6e par 
I'Universite de Princeton), ou EUROWORDNET pour certaines 
langues europeennes dont, a terme, le frangais et 
l'allemand, dont la structure s 1 inspire des theories 
psycholinguistiques recentes, en particulier des theories 
sur la m£moire lexicale humaine. Dans un tel systeme, les 
noms, les verbes, les adjectifs et les adverbes sont 
organises en classes de synonymie que I'on associe a des 
concepts. Des relations lexicales et semantiques 
permettent de lier les classes entres elles, par exemple 
25 des relations : 

- morphologiques, permettant de specifier 
qu'un terme est une forme flSchie d'une racine lexicale, 

- antonymiques, permettant de lier des termes 
contraires (par exemple monter et descendre) , 

30 ~ hyperonymiqufes ou hyponymiques, permettant 

d'6tablir une hierarchie entre des concepts (par exemple, 
le terme "couleur" est un concept hyperonyme de "bleu" 
et, inversement, "bleu" est un concept hyponyme de 
"couleur" ) , 

35 ~ m£ronymiques ou holonymiques , permettant de 

specifier qu'un concept est decomposable en sous -parties 
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et reciproquement qu ■ un concept est une sous-part ie d'un 

concept complexe (par exemple "chassis" est un meronyme 

de vehicule et, inversement , "vehicule" est un holonyme 
de "chassis") . 

Ainsi, chaque paragraphe ou chaque phrase d'un 
texte est traduit dans une sequence de concepts qui 
const itue une phrase d'un langage conceptuel associe aux 
moyens semantiques utilises. Les regies d ■ association 
entre concepts permettent d'enrichir ce langage concep- 
tuel en definissant des concepts plus complexes qui 
participent egalement a la phase d • indexation. 

On obtient ainsi, a partir d'un document, un 
ou des fichiers d- index qui associent une liste de 
references (d« unites de documents) a chacun des termes du 
15 document . 

Une autre phase du process selon 1' invention 

consiste a definir des regies . qui vont.. constituer au 

tnoins deux f litres d- information, dont le premier est 
compose de regies simples de semantique et le deuxieme de 
regies d' association de concepts. 

Les regies du premier filtre sont par exemple 
des regies de synonymie et d • hyperonymie . 

Les regies du deuxieme filtre sont des regies 
d • association et leurs exceptions, permettant de definir 
une distance (un nombre de mots ou de concepts) et des 
concepts qui doivent etre associSs dans cette distance. 

Ces regies d' association sont par exemples les 

suivantes : 

- une regie d' association conceptuelle non 
contrainte, permettant de specifier que la presence 
simultanee d'une serie de concepts dans la distance D se 
r<§-ecrit en un ou plusieurs concepts resultants, 

une regie d' association conceptuelle 
contrainte, similaire a la rdgle precedente, a ceci prds 
que l'ordre d'apparition des concepts specifies dans la 
regie doit Stre respecte, 
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- des regies d 1 association terminologique non 
contrainte et d * association terminologique contrainte, 
similaires aux deux regies pr^citees et dans lesquelles 
seuls les liens de synonymie et d'hyperonomie sont 

5 exploit^s, 

- des operateurs. de composition conceptuelle 
(signes & et ©) , qui permettent de repr^senter un concept 
a partir de plusieurs autres concepts et d 1 identifier les 
arguments des. premises des regies pour les exploiter dans 

10 les conclusions des regies. 

Les requetes etablies par les utilisateurs 
desirant proceder a des recherches sont redigees en 
langage naturel ou construites par * association de 
concepts en utilisant des operateurs du type ET, OU, NON. 

15 L 1 utilisateur doit 6galement, en principe, 

specifier deux degres de similarity (deux valeurs 
minimales de similarite) a respecter entre sa requete et 
les documents recherches, qui permettent de configurer 
les bandes passantes des premier et deuxieme f litres. 

20 L 1 invention d£finit une fonction de similarite 

entre un document et une requete comme le rapport de la 
quantity d 'information contenue cbnjointement dans le 
document et dans la requete et de la quantite d 1 informa- 
tion contenue dans la requete. 

25 De fagon plus detaill^e, on peut ecrire : 

p(iu) = n(iu) 

n . 

- P(iu) etant la probability de trouver une 
unite d' information (iu) dans un domaine de 

30 connaissances , 

- n(iu) etant le nombre de documents contenant 
l'unity d' information (iu) et 

- N 6tant le nombre total d'unites d 1 informa- 
tion contenues dans ce domaine . 
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La quantity d ' inf ormat ion attachee a l'unit&- 
d ' information (iu) dans ce domaine est : 
I (iu) - -Log 2 [P(iu) ] 

La quantite d 1 inf ormat ion contenue conjointe- 

ment dans deux documents Di et Dj est : 
I (Dir>Dj) = -Z Log 2 P(iu) 
iu 

avec iu € DioDj 

La fonction de similarite entre deux documents 

est alors : 

S(Di, Dj) = I (DioDi) 

MaxtKDi) , I (Dj) ] 

et la fonction de similarite entre un document 

Di et une requete R est : 

S(Di, R) = T (DinR) 
I (R) 

I (R) 6tant la quantite d 1 inf ormation contenue 
dans la requete. 

La similarite entre deux documents ou entre un 
document et une requete est un nombre r€el compris entre 
0 et 1. 

Si 1 'utilisateur fixe une valeur minimale de 
similarite egale a 0, il aura en reponse a une requete 
tous les documents d'un domaine de connaissances . S • il 
fixe une valeur minimale de similarity 6gale a 1, il 
n'aura que les documents qui repondent strictement a sa 
requete. 

On demande en principe a 1 'utilisateur de 
fixer deux valeurs minimales de similarite, l'une pour 
1 'application du premier filtre et 1' autre pour 1' appli- 
cation du deuxidme filtre. 

Si 1 'utilisateur ne le fait pas, ce sont des 
valeurs minimales predetermines de similarity qui seront 
appliquees automat iquement par le systeme . 

L' utilisateur ayant formule une requete et 
sp6cifi6 deux valeurs minimales de similarite pour 
1 1 application des deux filtres, le systeme va d'abord 
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appliquer le premier filtre (regies de synonymie et 
d 1 hyperonymie) aux fichiers d' index constitues £ partir 
des documents faisant partie d f un domaine de connais- 
sance . 

5 Pour cela, le systeme va prendre le premier 

terme de la requete et va trouver dans.. -le fichier d' index 
une liste de references (c'est-a-dire une liste d' unites 
documentaires) . 

Le systeme effectue le rapport du nombre 

10 d* unites documentaires de cette liste et du nombre 
d 1 unites documentaires dans le domaine del connaissances 
et obtient une probability d' occurrence d'une unite 
d' information. Le logarithme & base 2 - de ce rapport 
fournit la quantite d' information attachee k cette unit6 

15 d 1 information. Ce calcul est fait pour I'ensemble des 
termes de la requete, ce qui permet d'obtenir la valeur 
de la similarity entre la requete et la liste de 
references obtenue. Si cette valeur est superieure S la 
valeur minimale specif iee, la liste de r6f6rence est 

20 conserv^e . 

L* application des regies de synonymie et 
d' hyperonymie du premier filtre revient a effectuer ces 
calculs pour tous les termes du fichier d f index dont les 
termes de la requete sont des synonymes ou des 
25 hyperonymes. 

L 'application du premier filtre au domaine de 
connaissance fournit ainsi une ensemble de documents 
auxquels le deuxieme filtre va etre appliquS. 

Pour cela, le systeme commence par 
30 selectionner celles des regies du second filtre qui sont 
necessaires a 1' execution de la requete et n' applique que 
les regies ainsi s61ectionn6es a 1 • ensemble des documents 
resultant du premier filtrage. 

Les calculs de similarite sont realises comme 
35 d^crit plus haut, en tenant compte des regies d' associa- 
tion conceptuelle qui ont €t6 s61ectiorm6es par le 
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systeme, qui modifie les listes d' index associees aux 
documents selectionn^s a. 1 • issue du premier filtrage. 

On obtient ainsi des documents (des united 
document aires) qui repondent a la requete avec une 
exhaust ivite et une precision determinees par les degr£s 
de similarite specifies par 1 ' utilisateur . 

On comprend qu'en general, le degry de simila- 
rity specific pour 1 • application du premier filtre sera 
relativement faible, pour favoriser 1 ' exhaustivite de la 
recherche, tandis que celui specif ie pour 1 'application 
du second filtre pourra etre plus eleve, afin d'augmenter 
la precision. 

Le systeme permet egalement-. a- 1 'utilisateur 
d»61aborer des regies specifiques de synonymie, d'hypero- 
nymie, et d ' association conceptuelle, qui viendront 
completer les regies pr^-existantes et qui seront adap- 
ters a la recherche que 1 ' utilisateur souhaite ef f ectuer . 

Le procede selon 1' invention permet de faire, 
non seulement du filtrage et de 1 'extraction d' informa- 
tions dans un domaine de connaissances, mais egalement de 
fournir des classes documentaires dans lesquelles figu- 
rent des documents qui sont s^lectionnes a partir de leur 
similarity (par application de la fonction de similarite 
entre deux documents qui est indiquee plus haut et cpmpa- 
raison de la similarity a une valeur minimale determined 
ou par application d'algorithme (s) simple (s) de classifi- 
cation automatique du type "nu€ea dynamiques" qui exploi- 
tent la distance d entre deux documents Di, D j , cette 
distance etant d£finie par la relation : 
d = 1 - S(Di, Dj) . 

Par ailleurs, on peut egalement considerer le 
traitement d' indexation automatique des documents comme 
un premier filtrage ou filtrage prealable et specifier 
pour ce filtrage une valeur minimale de similarity. Dans 
ce cas, on ne retiendra des documents indexes que ceux 
qui respectent cette valeur minimale de similarite avec 
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la requite, et les deux autres filtres ne seront 
appliques qu'aux documents indexes retenus. 
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RE VEND I CAT I ONS 
1) Procede de traitement et de recherche 
d 1 informations dans des documents enregistr£s dans unr 
systeme inf ormatique , ce procede consistant & rediger. une 
5 requete de recherche et a appliquer cette requete aux 
documents pr6cit6s au moyen de regies pre-etablies pour 
obtenir les informations recherchees, caracterise en ce 
qu'il consiste : 

k traiter chaque document par des moyens 
10 automatiques d' indexation conceptuelle permettant 
d 1 organiser les termes du document en classes de 
synonymie qui sont associees a des concepts et relives 
entre elles par des relations lexicales et semantiques, 

- & etablir des ensembles de regies 
15 constituant au moins deux filtres d'informations, le 

premier compose de regies simples de semantique et le 
deuxiSme compost de regies d 'association conceptuelle ,• 

- k definir une fonction de similarite entre 
un document et une requete/ 

20 - et, pour execution d'une requ§te donn6e, 

- & appliquer le premier filtre aux documents 
indexes en respectant une valeur minimale d6termin§e de 
similarite entre les documents et la requete pour obtenir 
un premier ensemble de documents, 

25 - puis & appliquer le deuxieme filtre a cet 

ensemble de documents en respectant une valeur minimale 
predeterminee de similarite entre les documents de cet 
ensemble et la requete, pour obtenir les informations 
recherchees . 

30 2) Procede selon la revendication 1, 

caracteris6 en ce que les valeurs minimales precitees de 
similarite sont specif iees par 1 'utilisateur pour le 
premier et pour le deuxi§me filtre, ou bien sont des 
valeurs pr6d6terminees appliquees automat iquement par le 

35 systeme si 1 'utilisateur ne specif ie pas de valeurs 
particulieres ♦ 
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3) Proc£d6 selon la revendicat ion 1 ou 2, 
caracterise en ce que les regies du premier filtre sont 
des regies de synonymie et d 1 hyperonymie . 

4) Procede selon 1 ' une des revendicat ions 
pr^cedentes, caracterise en ce que les regies du deuxidme 
filtre sont des regies d 1 associatipn de concepts et leurs 
exceptions. 

5) Procede selon l'une des revendicat ions 
pr^cedentes, caracterise en ce qu f il consiste a 
selectionner , automatiquement celles des regies du 
deuxidme filtre qui sont necessaires a 1' execution d'une 
requete donnee et a n'appliquer que ces regies 
select ionnees . 

6) Procede selon l'une des revendicat ions 
precedentes, caracterise en ce qu'on determine la 
similarity entre un document et une requete a partir du 
rapport de la quantite d • information contenue 
conjointement dans ce document et la requete et de la 
quantite d ' information contenue dans la requete. 

7) Procede selon l'une des revendicat ions 
precedentes, caracterise en ce qu'il consiste egalement a 
def inir une f onction de similarite entre deux documents 
par le rapport de la quantite d' information contenue 
conjointement dans les deux documents et du maximum des 
quant it^s d' information contenues dans les deux 
documents, et a appliquer cette f onction de similarity 
aux documents indexes pour obtenir une classification des 
documents. 

8) Proc6d£ selon l'une des revendicat ions 
precedentes, caractSrisS en ce que, lors de 1' indexation 
des documents, on definit pour chaque document un fichier 
d 1 index constitue de lenunes qui sont des formes lexicales 
reduites des mots du document et, pour I'ex^cution d'une 
requete, on applique les regies du premier filtre aux 
fichiers d' index. 
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9) Procede selon la revendication 8, 
caract^rise en ce que les regies du deuxieme filtre sont 
appliquees aux fichiers d' index. 

10) Procede selon l'une des revendicat ions 
5 precedentes, caracterise en ce qu'il consiste a faire 

rediger par un utilisateur des regies de synonymie, 
d'hyperonymie et d • association conceptuelle qui sont 
specifiques a une recherche particuliere et a prendre ces 
regies en compte, avec les regies pre-existantes 
10 constituent les premier et deuxiSme filtres pour 
1' execution de la recherche. 

11) ProcedS selon l'une des revendicat ions 
precedentes, caracterise en ce qu'il consiste- a specifier 
une valeur minimale predetermined de similarity entre une 
requete et les documents avant d'effectuer le traitement 
precite d' indexation conceptuelle des documents, et a ne 
retenir que ceux des documents indexes qui respect ent 
cette valeur minimale de similarity. 
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